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摘要 环境 中 的 视觉 搜索 是 人 和 动物 赖 以 生存 的 重要 能 力 。 目 前 的 视觉 搜索 研究 多 使 
用 静态 的 观察 者 和 静止 的 二 维 搜索 对 象 ， 侧 重 于 探究 注意 在 搜索 中 的 作用 ; 现 有 的 视觉 搜索 理 
论 模 型 主要 概括 了 影响 搜索 的 自 上 而 下 的 注意 因素 ， 而 将 自 下 而 上 影响 因素 简单 归结 为 影像 显 
著 性 ， 然 而 在 真实 环境 中 ， 观 察 者 或 搜索 对 象 是 可 以 运动 的 ， 搜 索 时 可 利用 的 视觉 信息 包括 动 
态 光 流 和 静态 影像 结构 信息 。 已 有 的 视觉 识别 研究 发 现 这 两 种 信息 相 结合 可 以 使 观察 者 准确 持 
久 地 识别 场景 、 事 件 和 三 维 结构 。 在 现 有 视觉 搜索 理论 模型 中 引入 两 种 视觉 信息 ， 还 原 真 实 环 
境 中 的 搜索 任务 ， 并 设计 了 实验 ， 探 究 利 用 动 、 静 态 视觉 信息 的 视觉 搜索 过 程 ， 从 而 完善 现 有 
的 视觉 搜索 模型 。 我 们 认为 充分 利用 环境 信息 可 以 提高 搜索 效率 ， 且 在 视觉 搜索 训练 和 智能 


索 设 计 等 方面 有 重要 的 应 用 价值 。 
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视觉 搜索 ( visual search ) 指 通过 观察 、 利 用 视觉 信息 从 众多 事物 中 找到 某 一 目 
标 。 这 是 人 和 动物 赖 以 生存 的 关键 能 力 之 一 。 对 于 视觉 搜索 过 程 及 其 认 知 机 制 的 研究 
有 助 于 人 们 发 现 影响 搜索 效率 的 因素 ， 从 而 有 针对 性 地 制定 视觉 搜索 训练 计划 ， 提 高 
搜索 准确 性 和 搜索 速度 。 在 经 典 的 视觉 搜索 实验 中 ， 一 个 搜索 目标 和 几 个 干扰 子 随机 
且 独 立地 呈现 在 电脑 屏幕 上 ( Treisman & Gelade, 1980; Koch & Ullman, 1987; Duncan & 
Humphreys, 1989; Wolfe & Gancarz, 1997 ) ,目标 和 干扰 子 之 间 在 一 个 或 几 个 维度 上 有 


所 区 分 ， 如 在 多 个 字母 S 中 找 出 字符 $ ,或 者 在 众多 不 同 颜色 的 几何 形状 中 找 出 红色 贺 


圈 。 与 真实 世界 视觉 搜索 任务 相 比 , 这 类 实验 室 任务 中 的 搜索 目标 、 干 扰 子 和 背景 信 
息 都 过 于 简单 。 近 年 来 ， 研究 者 通过 使 用 真实 物体 的 静态 图 片 作为 搜索 对 象 ( 或 呈现 
在 单一 颜色 背景 中 ， 或 骨 于 静态 场景 中 ) 增加 视觉 搜索 实验 范式 的 生态 效 度 。 这 些 研 
究 发 现场 景 结构 /要 义 (Torralba, Oliva, Castelhano, & Henderson, 2006; Henderson & 
Hayes, 2017 ) 、 搜 索 历 史 ( Ort, Fahrenfort, & Olivers, 2017; Wolfe, Cain, & Aizenman, 
2019 ) 、 目 标 频 率 ( Wolfe & Wert, 2010; Wolfe, Boettcher, Josephs, Cunningham, & 
Drew, 2015 ) 以 及 目标 价值 Clayton, Leonardo, Jan, & Geng, 2014; Ehinger & Wolfe, 
2016) 等 因素 都 会 影响 视觉 搜索 。 

然而 ， 真 实 世界 里 的 视觉 搜索 远 比 实验 室 任务 复杂 。 具 体 来 说 ， 传 统 视觉 搜索 实 
验 范式 中 的 观察 者 、 搜 索 对 象 和 搜索 环境 多 是 静止 的 ， 现 实 中 它们 是 可 以 移动 的 。 其 
次 ， 实 验 室 任务 中 通常 使 用 简单 抽象 的 二 维 图 片 作为 目标 物 和 干扰 子 。 而 现实 中 的 搜 
索 对 象 是 三 维 的 ， 它 们 更 加 复杂 、 可 能 有 数 不 尽 的 特征 组 合 。 更 重要 的 是 ， 真 实 场景 
中 搜索 的 物体 外 观 会 随 着 观察 距离 、 观 察 角度 、 光 影 、 物 体 或 观察 者 的 运动 而 改变 ， 
甚至 会 被 遮挡 掩蔽 ( Foulsham & Underwood, 2009 ) 。 即 便 近 年 来 有 些 研 究 使 用 真实 照 
片 或 虚拟 现实 场景 作为 搜索 环境 ， 研 究 者 依然 将 丰富 的 三 维 动 、 静 态 信息 简化 成 物体 
的 二 维 投影 ,以 简单 影像 作为 搜索 过 程 的 起 点 , 致使 至 少 一 半 的 视觉 信息 ( 动态 信 
息 ) 没有 被 纳入 现 有 的 视觉 搜索 模型 。 

因此 ， 很 多 研究 者 对 实验 室 任 务 的 效 度 提出 质疑 ， 认 为 基于 实验 室 任务 得 出 的 结 
论 无 法 完全 解释 真实 世界 中 的 行为 表现 ( Broadbent, 1991; Kingstone, Smilek & 
Eastwood, 2008 ) ， 甚 至 可 能 起 到 反作用 ， 将 研究 带 入 错误 的 方向 ( Kingstone, Smilek, 
Ristic, Friesen, & Eastwood, 2003 ) o Kingston 和 同事 ( Kingston et al, 2003 ) 明确 提出 


视觉 搜索 研究 必须 开拓 新 方向 ， 必 须 将 观察 者 、 观 察 对 象 、 搜 索 任务 和 环境 结合 ， 尤 


其 是 要 者 虑 观察 者 的 状态 和 自然 环境 特征 ， 从 具 身 的 角度 研究 视觉 搜索 。 这 与 Gibson 
生态 知觉 理论 的 核心 思想 ( Gibson, 1958; Gibson, 1979/1986 ) TEME» 

视觉 搜索 过 程 涉及 到 知觉 ( Treisman, 1982; Theeuwes, Kramer, & Belopolsky, 
2004 ) 、 注 意 ( Ami, Omar, & Thornton, 2014; Wolfe & Horowitz, 2017 ) 、 工 作 记 忆 
( Drew, Boettcher, & Wolfe, 2016; Drew, Boettcher, & Wolfe, 2017 ) 、 长 时 记忆 
( Woodman & Chun, 2006; Le-Hoa & Wolfe, 2015 ) 等 认 知 活动 。 这 些 认 知 活动 并 非 相 
互 独立 地 存在 于 视觉 搜索 的 过 程 中 ， 而 是 互相 交织 渗透 ， 形 成 了 一 个 延续 的 过 程 。 然 
而 ， 大 部 分 视觉 搜索 的 研究 中 ， 对 搜索 过 程 和 机 制 的 讨论 都 侧重 注意 的 引导 、 分 配 或 
捕捉 。 相 较 之 下 ,虽然 知觉 贯穿 了 搜索 过 程 中 早期 的 特征 注册 阶段 ( Treisman, Sykes, 
& Gelade, 1977; Treisman & Gormican, 1988; Wolfe, & Gray, 2007 ) 、 中 期 的 目标 噪声 分 
离 阶 段 ( Eriksen & Schultz, 1979 ) 和 后 期 的 序列 识别 阶段 ( Treisman & Gormican, 
1988 ; Wolfe, Cave, &Franzel, 1989; Wolfe, & Gray, 2007 ) ， 对 搜索 起 到 重要 作用 , 但 
对 搜索 过 程 中 知觉 信息 处 理 的 研究 却 非 常 少 。Nakayama 和 Martini ( 2011 ) 提出 ， 知 


觉 研究 尤其 是 物体 识别 可 以 帮助 我 们 理解 视觉 搜索 。 他 们 认为 物体 识别 和 视觉 搜索 本 


二 


质 上 都 是 模式 识别 ( pattern recognition ) 。 物 体 识别 需要 利用 很 多 维度 上 的 特征 给 一 个 


SS 


ADR ; 视觉 搜索 任务 则 利用 少数 维度 上 的 特征 区 分 多 个 物体 。 两 种 任务 本 质 上 是 
相同 的 ， 它 们 只 是 维度 数量 和 物体 数量 的 权衡 ( trade-off ) 。 由 此 可 见 ， 识 别 和 搜索 是 
一 个 连续 的 两 个 极端 ,它们 之 间 联 系 紧 密 ,因此 帮助 物体 识别 的 信息 也 可 以 帮助 视觉 
搜索 。 基 于 此 ， 本 研究 将 从 生态 知觉 视角 出 发 ， 提 出 实验 构想 ， 探 究 动 、 静 态 视 觉 信 


息 对 搜索 的 影响 ， 对 现 有 的 视觉 搜索 模型 进行 补充 、 完 善 。 
1.2 研究 意 》 


在 理论 层面 ， 本 研究 打破 固有 思维 模式 ， 将 搜索 还 原 到 最 真实 的 场景 ， 提 出 观察 
者 和 观察 对 象 的 状态 会 影响 搜索 行为 ， 而 这 种 影响 是 基于 信息 的 : 观察 者 和 观察 对 象 
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的 状态 不 同 ， 产 生 的 视觉 信息 不 同 ; 视觉 信息 不 同 ， 则 搜索 行为 不 同 。 和 其 它 知觉 任 
务 一 样 ， 视 觉 搜索 是 一 个 主动 的 、 动 态 的 、 具 身 的 过 程 ， 涉 及 搜索 对 象 、 环 境 背 景 、 
观察 者 自身 等 众多 方面 。 本 研究 旨 在 完善 视觉 搜索 理论 体系 ， 找 出 真实 世界 里 静止 或 
运动 的 观察 者 如 何 利用 光 流 和 影像 结构 信息 搜索 物体 或 事件 ， 并 通过 训练 提高 观察 者 
提取 、 整 合 、 利 用 视觉 信息 的 能 力 ， 从 而 提升 搜索 效率 。 

在 应 用 方面 ， 人 生活 在 三 维 环境 中 ， 环 境 是 不 断 变化 的 ， 人 也 是 在 运动 中 的 。 观 
察 者 如 何在 运动 的 状态 下 寻找 目标 ， 如 何 从 一 群 运动 的 人 中 找 出 一 个 运动 的 目标 ， 这 
些 是 重要 的 认 知 任务 ， 在 真实 的 、 动 态 的 环境 中 有 广泛 应 用 。 例 如 ， 在 公共 安全 方 
面 ,警察 需 要 从 视频 监控 中 快速 找到 目标 ， 急 救 人 员 需要 在 人 员 密 集 且 流动 的 地 方志 
速 找到 需要 帮助 的 人 ， 这 些 都 需要 利用 动 、 静 态 视觉 信息 进行 搜索 。 现 有 搜索 理论 主 
要 是 基于 静态 影像 信息 ， 流 程 大 概 是 先 “ 记 住 "一 个 目标 图 像 ， 然 后 从 很 多 图 像 中 找 出 
目标 。 但 是 当 人 在 环境 中 运动 时 ， 情 况 很 复杂 ， 面孔、 外 形 等 作为 识别 依据 的 图 像 经 
常会 被 遮挡 ， 也 很 容易 被 修饰 。 仅 基于 影像 的 视觉 搜索 不 是 最 有 效 的 ， 容 易 出 现 漏 报 
( miss ) 或 者 虚报 ( false alarm ) 。 倘 车 在 搜索 过 程 中 可 以 得 到 并 利用 影像 和 运动 信 

可 能 搜索 效率 会 更 高 。 因 为 运动 形态 取决 于 物理 特征 ( 如 质量 、 长 度 、 摩 擦 系数 
等 ， 每 个 人 体型 不 一 样 ， 走 路 的 姿态 也 不 一 样 ) ， 并且 运 动 形态 很 难 被 改变 。 所 以 影 
像 结构 信息 和 运动 产生 的 光 流 信息 在 视觉 搜索 中 都 很 重要 。 在 本 研究 中 ， 我 们 验证 观 
察 者 能 否 使 用 运动 产生 的 视觉 信息 进行 搜索 ， 并 完善 基于 动 、 静 态 视觉 信息 进行 搜索 
的 认 知 模型。 

本 研究 结果 的 应 用 价值 总 结 为 : 做 出 有 针对 性 的 训练 方案 ， 着 重 训练 对 有 效 视 
觉 信息 的 提取 及 整合 ,提高 搜 索 准确 率 ， 降 低 搜索 时 间 ; @ 将 人 类 行为 学 研究 结果 和 
机 器 学 习 相 结合 ， 使 自动 化 搜索 高 效 低 耗 。 现 有 的 智能 搜索 算法 主要 基于 影像 信息 ， 
原则 上 讲 影像 越 高 清 、 帧 数 越 多 ， 搜 索 越 准确 。 这 样 的 搜索 计算 负荷 大 ， 对 处 理 器 、 


散热 装置 和 电池 的 要 求 很 高 , 不 适用 于 小 型 便携 设备 。 但 是 对 光 流 的 处 理 只 需要 低频 
空间 信号 ， 对 清晰 度 没 有 很 高 要 求 。 所 以 相 比 传统 算法 ， 基 于 光 流 的 搜索 具有 运算 速 
度 快 、 计 算 负荷 低 ,发热 少 、 能 耗 低 等 优点 ， 非 常 适用 于 便携 式 搜 索 装 置 或 无 人 机 搜 
索 。 本 研究 突破 固有 思维 案 白 ， 将 动态 光 流 信 息 引 入 视觉 搜索 ,在 提高 人 类 搜索 效 
率 、 改 善人 工 智 能 搜索 算法 等 应 用 方面 起 到 推进 作用 ， 有 较 高 的 应 用 价值 和 社会 意 
X, IEA Wolfe 所 说 “我 们 的 健康 和 安全 部 分 寄托 于 成 功 的 搜索 ”( “our health and 


safety rely, in part, on successful search” , Wolfe, 2003, p75 ) o 
2 国内 外 研究 现状 


2.1 视觉 搜索 理论 及 发 展 


Anne Treisman 以 其 突破 性 的 特征 整合 理论 ( Feature Integration Theory , FIT ) F 
启 了 当代 视觉 搜索 研究 的 进程 。FIT 将 搜索 过 程 划分 为 两 个 阶段 : 前 注意 阶段 ， 特 征 
首先 在 视野 中 自动 和 并 行 加 工 ; 随后 的 注意 阶段 ， 则 借助 注意 来 绑 定 特征 ， 从 而 对 物体 
进行 序列 识别 ( Treisman & Gormican , 1988 ) 。 Duncan 和 Humphreys ( 1989 ) 不 同意 
Treisman 关于 并 行 搜索 和 序列 搜索 之 间 的 二 分 法 ， 转 而 提出 了 相似 性 理论 (similarity 
theory) 。 他 们 认为 ， 当 干扰 子 是 同 质 的 并 且 与 目标 非常 不 同时 ， 视觉 搜索 任务 很 容 
易 ， 反 之 则 难 。 为 了 填补 前 注意 阶段 中 特征 对 于 注意 分 配 的 引导 机 制 的 空白 Wolfe , 
Cave 和 Franzel ( 1989 ) 修改 了 FIT 并 提出 了 引导 搜索 模型 。 在 该 模型 中 ， 对 注意 的 引 
导 分 为 自 上 而 下 和 自 下 而 上 两 个 部 分 。 其 中 ， 自 下 而 上 的 注意 引导 关注 的 是 刺激 的 局 
部 对 比 度 或 物理 显著 性 信息 ; 自 上 而 下 的 注意 引导 关注 的 是 在 不 同 特征 上 当前 项 目 与 
目标 的 匹配 程度 。 最 终 的 搜索 效率 是 两 种 引导 的 加 权 和 。 引 导 搜索 模型 影响 巨大 ,此 
后 几乎 所 有 的 视觉 搜索 理论 研究 基本 都 是 在 该 模型 的 框架 内 细 化 、 论 证 。 


近年 来 ， 借 助 技术 ( 尤其 是 便携 式 眼 动 、 虚 拟 现实 ) 和 算法 ( 贝 叶 斯 估计 、 网 络 
模型 等 ) 的 发 展 ， 越 来 越 多 的 视觉 搜索 研究 通过 增加 背景 和 搜索 对 象 的 复杂 程度 ( 如 
使 用 真实 物体 图 片 或 场景 照片 ) 来 提高 实验 室 任务 的 生态 性 。Wolfe 的 引导 搜索 模型 


也 不 断 地 得 到 扩展 ( Wolfe 本 人 也 不 断 对 引导 性 搜索 模型 进行 改良 : Guided Search 2.0 - 
- Wolfe, 1994; Guided Search 3.0 -- Wolfe & Gancarz, 1997; Guided Search 4.0 -- Wolfe & 


Gray, 2007); Guided Search 5.0 -- Wolfe et al, 2015 ) 。 现 有 模型 ( 见 图 2 ) 中 自 上 而 下 
影响 因素 主要 由 三 个 部 分 组 成 ， 包 括 模 板 引导 ( template guidance ) 、 情 景 引 导 

( episodic guidance ) 和 语义 引导 ( semantic guidance ) 。 模 板 引导 指 的 是 搜索 者 对 搜 
索 目 标 物 的 了 解 和 背景 知识 Bahle, Matsukura, & Hollingworth, 2018; Duncan & 
Humphreys, 1989 ) 。 情 景 引导 指 的 是 在 相似 情境 中 目标 物 凤 经 在 哪里 出 现 过 ( Brooks, 
Rasmussen, & Hollingworth, 2010; Vo & Wolfe, 2012 ) 。 语 义 引 导 指 的 是 在 同类 情境 中 
目标 物 可 能 出 现在 哪里 ,受到 背景 信息 、 物 体 -场景 关系 和 物体 -物体 关系 的 影响 

( Wolfe, Cain, & Aizenman, 2019; 见 Wu, Wick, & Poumplun, 2014 的 综述 ) 。 至 此 ,对 
影响 真实 环境 中 搜索 的 自 上 而 下 的 因素 分 析 已 经 比较 完善 ， 并 形成 一 些 统一 的 认识 。 

引导 搜索 模型 中 ， 自 下 而 上 的 影响 因素 主要 包括 搜索 对 象 的 影像 显著 性 ( Koehler, 

Guo, Zhang, & Eckstein, 2014 ) ， 即 搜索 对 象 间 影像 差异 性 越 大 或 者 搜索 目标 的 影像 越 
突出 ， 搜 索 越 快 越 准 。Koch M Ullman ( 1987 ) 提出 了 显著 性 地 图 (saliency map ) ， 
即 根据 搜索 对 象 多 个 特征 的 显著 差异 形成 分 布 图 ， 以 此 来 预测 观察 者 的 搜索 位 置 。 该 
理论 被 许多 实验 研究 结果 支持 ( De Vries, Hooge, Wertheim, & Verstraten 2013; Kamkar, 
Moghaddam, & Lashgari, 2018 ) 。 然 而 ， 近 年 来 有 研究 发 现 ， 影像 显著 性 对 注意 分 配 的 
影响 仅 局 限于 实验 室 任务 ， 不 能 泛 化 到 真实 环境 中 的 视觉 搜索 。 例 如 ， 在 真实 场景 
搜索 时 ， 视觉 刺激 的 显著 性 不 能 预测 或 解释 观察 者 搜索 时 的 眼 动 ( Wu, Wick, & 
Pomplun, 2014 ) 。 鉴 于 眼 动 注视 点 是 体现 注意 分 配 的 重要 行为 指标 ( Henderson & 


Hayes, 2017 ) ， 这 意味 着 显著 性 地 图 模型 不 能 解释 真实 搜索 中 的 注意 分 配 ， 也 不 能 预 
6 


测 真实 环境 中 的 搜索 行为 Foulsham & Underwood, 2009; Henderson, Malcolm, & 
Schandl, 2009 ) 。 

我 们 认为 ， 通 过 实验 室 任务 验证 的 显著 性 之 所 以 无 法 解释 真实 环境 中 的 搜索 ,是 
因为 实验 室 任务 中 对 于 观察 者 和 观察 对 象 的 设置 太 过 简单 和 理想 化 。 首 先 ， 有 研究 者 
提出 显著 的 观察 对 象 必须 要 进入 观察 者 的 中 央视 野 ， 其 显著 性 才能 起 作用 (Wolfe, 
2003; Foulsham, Chapman, Nasiopoulos & Kingstone, 2014 ) 。 在 实验 室 电脑 上 进行 的 搜 
索 任 务 ， 观 察 者 大 都 端 坐 于 电脑 前 ， 头 部 固定 ， 静 态 的 观察 对 象 落 在 中 央视 野 ， 这 显 


然 不 是 真实 世界 搜索 时 的 情况 。 举 例 来 说 ，Foulsham 等 人 ( 2014 ) 设计 了 一 个 真实 的 


搜索 任务 ， 要 求 参 与 者 从 实验 室 穿 过 几 条 走廊 进入 收发 室 , 收发 室 里 有 一 整 面 墙 都 是 
同样 形状 大 小 信箱 格子 ( 共 120 个 ) ， 被 试 需要 找到 一 个 目标 信箱 。 在 一 半 试 次 中 ， 

研究 者 将 目标 信箱 涂 成 荧光 粉色 ， 和 希望 明显 的 颜色 特征 可 以 突出 目标 ， 激 发 前 注意 搜 
索 。 但 是 实验 结果 显示 ,无 论 目标 信箱 有 没有 被 涂 成 粉色 ， 搜 索 反 应 时 都 是 一 样 的 ， 

目标 物 的 显著 性 对 反应 时 没有 影响 。 研 究 者 认为 ， 在 真实 场景 中 ， 观察 者 相对 于 环境 
来 讲 非 常 小 ， 所 以 观察 者 需要 先 移 动身 体 和 头 ， 对 环境 进行 扫描 ， 然 后 再 用 眼睛 进行 
搜索 。 眼 睛 的 搜索 是 财 套 在 身体 搜索 中 的 二 级 搜索 。 当 头 刚 好 对 着 目标 方向 再 用 眼睛 
进行 搜索 时 ， 显著 性 才 起 到 作用 。 由 于 第 一 阶段 的 身体 搜索 远 比 眼睛 搜索 耗 时 长 ( 在 
上 述 实 验 中 ， 身 体 搜索 用 了 26 秒 ， 而 眼睛 搜索 用 了 4 秒 ) ,显著 性 对 真实 环境 中 搜 

索 的 帮助 便 无 法 体现 出 来 了 。 第 二 ， 显著 性 不 是 一 成 不 变 的 ， 而 是 动态 的 

( dynamic ) 、 情 境 的 (situated) ， 会 随 着 时 间 空 间 变 化 而 变化 。 现 有 理论 认为 搜索 
对 象 在 颜色 、 形 状 、 大 小 、 运 动 等 几 个 维度 上 的 差异 影响 搜索 效率 ， 差 异 越 大 目标 越 
显著 。 但 是 在 现实 环境 里 ， 观 察 时 间 、 观 察 者 的 姿态 或 物体 的 移动 可 能 改变 光影 、 观 
察 角度 、 观 察 距 高 、 观 察 对 象 间 的 遮挡 关系 等 ， 从 而 改变 搜索 对 象 的 颜色 、 形 状 、 大 


小 等 影像 信息 。 在 这 种 情况 下 ， 搜索 对 象 的 显著 程度 几乎 无 法 定义 或 量化 。 另 外 , A 


实 搜索 中 也 会 存在 多 个 维度 一 起 变化 的 情况 ， 比 如 一 个 物体 的 颜色 突出 ， 但 是 另 一 个 
物体 是 运动 的 ， 那 么 颜色 和 运动 哪个 更 为 显著 就 难 有 定论 。 

结 现 有 视觉 搜索 研究 进展 及 对 今后 搜索 研究 的 建议 ， 我们 认为 要 想 解释 真实 环 
境 中 的 视觉 搜索 ， 必 须 将 搜索 还 原 到 最 真实 的 环境 ( Kingston et al, 2003; Kingston, 
Smilek & Eastwood, 2008 ) ， 加 入 环境 的 变化 和 观察 对 象 的 运动 、 考 虑 观察 者 的 主动 
运动 ( Tatler et al, 2011 ) 、 重 视 观 察 者 和 环境 的 融合 (Nakayama & Martini, 2011)。 这 些 
都 是 Gibson 生态 知觉 理论 的 核心 思想 ( Gibson, 1958; Gibson, 1979/1986 ) 。 所 以 将 生 
态 知觉 理论 引入 视觉 搜索 显得 自然 且 必 须 。 在 生态 知觉 理论 体系 下 ， 和 运动 产生 了 动态 
光 流 信息 ， 这 种 信息 可 以 标示 环境 中 物体 的 结构 和 关系 。 动 态 光 流 信 息 和 三 维 物 体 的 
静态 影像 结构 ( 影像 显著 性 ) 两 者 结合 在 一 起 形成 了 视觉 信息 。 动 、 静 态 视觉 


一 全 、 


aS 
为 一 个 整体 取代 原来 基于 平面 图 片 ( 或 场景 ) 的 影像 显著 性 在 引导 搜索 模型 中 的 位 
, 构成 影响 视觉 搜索 的 自 下 而 上 的 因素 。 


在 视觉 搜索 领域 ， 复 原 真 实 环境 的 手法 通常 是 从 场景 照片 里 面 搜索 。 但 是 Gibson 
明确 提出 ， 真 实 场景 和 场景 图 片 是 不 同 的 :“ 看 着 尼亚加拉 瀑布 的 感受 和 看 着 尼亚加拉 
瀑布 照片 的 感受 是 不 一 样 的 ( Gibson, 1979 ) ”; 同 理 ， 看 着 厨房 的 图 片 搜索 和 真正 在 
厨房 里 搜索 也 是 不 一 样 的 。 差 异 在 于 在 真实 环境 中 ,观察 者 或 观察 对 象 是 可 以 运动 
的 。 运 动 使 观察 对 象 的 影像 不 断 变形 、 相 互 遮掩 ， 使 单纯 基于 影像 匹配 的 搜索 不 可 
行 。 但 是 运动 产生 了 另 一 种 信息 : 光 流 ,这 是 一 种 动态 的 信息 ， 可 以 标示 环境 中 物体 
的 结构 和 关系 。 

生态 光学 理论 认为 一 切 视 觉 任务 都 依赖 光学 信息 。Gibson ( 1966 ) 提出 光 投 入 环 
境 ， 被 环境 中 的 表面 或 物体 反射 ， 形 成 环境 光 ( Ambient light ) 。 环 境 光 携带 关于 整个 


环境 的 信息 。 如 ， 瓷砖 、 大 理 石 、 金 属 表 面 反 射出 的 环境 光 不 一 样 ， 所 以 通过 察觉 环 
境 光 ， 人 可 以 知道 哪个 是 厨房 墙 面 ， 哪 个 是 台面 ， 哪 个 是 洗 菜 盆 。 

环境 光 汇 聚 到 一 个 观测 点 ， 形 成 一 组 光 阵 。 对 于 某 一 观测 点 ， 构 成 静态 光 阵 的 各 
部 分 表面 有 着 不 同 的 视 立体 角 (visual solid angle ) ,这 些 视 立 体 角 与 环境 中 的 物体 表 
面 的 布局 结构 一 一 对 应 ， 形 成 静态 影像 结构 信息 。 静 态 影 像 结 构 信息 包括 边界 
( edge ) 、 光 影 ( shading ) 、 颜 色 或 强度 对 比 ( contrast of color or intensity ) 等 。 这 种 
信息 是 持久 的 ， 只 要 物体 存在 ,影像 结构 信息 就 存在 。 

当 观 察 者 行进 或 环境 中 物体 发 生 运 动 时 ， 光 阵 中 的 各 视 立 体 角 也 随 之 发 生变 化 ， 
它们 或 新 增 、 或 消失 、 或 放大 、 或 缩小 。 光 阵 连续 变化 形成 光 流 信息 。 光 流 状 态 与 观 
察 者 在 环境 中 相对 运动 速度 、 运 动 方向 以 及 观察 者 与 运动 物体 的 距离 一 一 对 应 , 如 距 
离 观察 者 越 远 的 物体 光 流 速度 越 慢 ,在 观察 者 正 前 方 的 物体 比 在 她 视野 边缘 的 物体 光 
流速 度 快 。 光 流 由 运动 产生 ， 与 运动 模式 一 一 对 应 ; 观察 者 通过 察觉 光 流 的 状态 、 方 
向 、 速 度 和 不 动 点 的 位 置 ， 知觉 自身 或 环境 物体 的 运动 模式 。 见 图 1。 


按 运动 方向 分 

$ pa a > WA ~ 径 向 径 向 

交流 en oe ’ 外 流 内 流 
标示 人 在 环 ”标示 物体 运动 oye OHR 标示 
境 中 运动 前 进 运 动 


1: 生态 光学 理论 总 结 。Gibson 认为 观察 者 利用 环境 光 里 的 视觉 信息 完成 知觉 


任务 。 环 境 光 里 包括 静态 影像 结构 信息 和 动态 光 流 信息 。 


环境 中 各 物体 表面 对 应 某 一 个 观测 点 并 形成 唯一 的 光 阵 ， 而 观测 点 或 环境 物体 的 
运动 方式 形成 唯一 的 光 流 。 这 样 的 一 一 对 应 关系 是 由 自然 法 则 所 决定 的 。 环 境 中 某 一 
表面 投射 到 某 一 观测 点 的 影像 结构 信息 由 几何 规律 所 约束 ， 不 是 随机 的 ; 运动 产生 的 
连续 光 流 由 动力 学 规律 和 运动 学 规律 约束 ， 也 不 是 随机 的 。 这 样 的 规律 性 ， 使 观察 者 
可 以 通过 静态 和 动态 信息 准确 知觉 环境 的 结构 和 性 质 。 

所 以 ， 要 在 实验 室 中 复原 真实 环境 里 的 搜索 仅 使 用 真实 图 片 或 者 虚拟 现实 显示 
是 不 够 的 ， 关 键 是 要 提供 影像 结构 和 光 流 ， 这 样 才能 构建 更 具 生 态 效 度 的 实验 场景 ， 


设置 更 接近 真实 环境 的 搜索 条 件 ， 以 探究 真实 环境 里 的 视觉 搜索 。 


2.3 动 、 静 态 视觉 信息 在 知觉 场景 、 物 体 结构 和 事件 中 的 作用 


在 自然 的 观察 环境 里 ， 动 、 静 态 视 觉 信 息 同时 存在 。 光 流 和 影像 结构 信息 结合 可 
以 帮助 准确 稳定 地 知觉 场景 、 物 体 结构 和 事件 。 首 先 ， 研 究 发 现 观察 者 可 以 利用 自身 
运动 生成 的 光 流 识别 模糊 场景 ， 光 流 强度 和 场景 识别 的 表现 呈正 相关 ( Wu, Wang & 
Pan, 2019 ) 。 

第 二 ,观察 者 可 以 利用 动态 视觉 信息 准确 知觉 物体 的 三 维 结构 ， 这 个 机 制 叫做 运 
动 恢复 结构 ( structure-from-motion ; Domini, Vuong, & Caudek, 2002; Todd, Tittle, & 
Norman, 1995 ) o 40, Lind 和 同事 ( Lee, Lind, Bingham, & Bingham, 2012 ) 发 现 当 将 
不 同 宽度 -深度 比 的 圆柱 体 摆 在 观察 者 面前 时 ,观察 者 从 约 45?" 俯 视角 观察 ,如果 观 察 
目标 和 观察 者 都 处 于 静止 状态 ， 仅 赁 影像 结构 无 法 知觉 物体 的 三 维 结构 。 但 是 只 要 观 
察 者 和 观察 目标 之 间 存 在 连续 的 45° 以 上 的 视角 变化 ( 观察 者 或 者 观察 目标 旋转 45° 以 
E) ， 则 观察 者 可 以 准确 知觉 物体 三 维 结构 。 
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第 三 ， 光 流 和 影像 结构 可 以 帮助 事件 识别 ( Pan & Bingham, 2013; Pan et al 


事件 指 运动 中 的 物体 。 而 生物 运动 是 事件 的 一 种 ， 也 是 其 中 最 被 深入 研究 的 
上 多 种 运动 、 动 作者 的 特 


觉 信 息 识 另 
波动 的 水 面 等 。 Bingham， 
物 运动 范式 中 加 入 简单 的 景 ORME 


2017 ) 。 
一 种 。 研 究 发 现 观察 者 可 以 通过 光 点 运动 产生 的 视 
征 、 和 其 它 非 生物 运动 的 事件 ( 如 ,一 个 滚动 的 球 ， 
此 外 ,少量 研究 在 生 
并 使 用 贝 叶 斯 模型 (“理想 观察 者 模型 

网 觉 刺激 的 信息 量 会 影 


Rosenblum, & Schmidt, 1995 ) o 
车 线 ， 或 者 加 上 轮廓 线 ) , 


息 ( 如 将 光 点 连 
析 了 实验 刺激 里 的 信息 含量 ， 发 现 改变 


ideal observer model ) 
PRE MIS) AW ME ( Gold, Tadin, Cook, & blake, 2008; Lu, Tjan, & Liu 


响 识 别 、 


2017 ) 。 
学 者 们 对 动 、 静 态 视 觉 信 息 在 事件 识别 中 所 起 到 的 作用 进行 了 研究 ， 并 提出 了 “ 力 
约束 运动 理论 ”( kinematics-specified-by-dynamics theory, Runeson & Frykholm 
不 同 ( 如 ,形成 


研究 者 们 认为 ， 因 为 每 项 运动 背后 的 物理 动力 ( dynamics ) 
每 个 运动 者 的 身体 有 具有 不 同 的 物理 属性 


所 以 不 同 运动 者 做 出 的 不 同 运动 就 


视觉 信息 时 , 


1983 ) 。 
跑 、 跳 、 走 等 不 同 运动 的 力 
( 质量 、 肢 体 长 度 、 关 节 灵 活性 、 肌 肉 强度 等 ) 
具有 独特 的 、 固 定 的 运动 学 ( kinematics ) 特性 。 当 观察 者 只 接收 到 动 


是 完全 不 同 的 ) ， 


根据 观察 到 的 运动 特征 ， 可 以 知觉 生物 运动 及 运动 者 本 身 的 性 质 ， 从 而 知觉 具体 事 
件 。Bingham 和 同事 后 续 提出 标示 事件 动态 信息 的 视觉 信息 是 轨迹 形态 ， 即 运动 物体 
( trajectory form; Bingham, 1995; Bingham, Schimidt, & 


BALE 速度 的 关系 (2) ， 
Rosenblum, 1995; Muchisky & Bingham, 2002; Wickelgren & Bingham, 2004, 2008b ) 
, 所 以 可 以 用 来 标示 事件 。 研 


位 


受 力 的 影响 。 每 种 动力 会 产生 唯一 的 轨迹 形态 


非常 敏感 ， 可 以 通过 该 信息 分 辨 非常 类 似 的 事件 ,如 手 


轨迹 形态 
究 发 现 ， 人 们 对 这 种 动态 信息 
晃动 控制 的 钟 摆 和 自由 摆动 的 钟 摆 ( Muchisky & Bingham, 2002 ) 


。 更 重要 的 是 ,轨迹 
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形态 信息 不 受 观 察 视 角 影 响 ， 即 便 是 从 不 熟悉 的 观察 角度 也 可 以 识别 事件 
( Wickelgren & Bingham 2004, 2008b ) 。 

综 上 所 述 ， 观 察 者 的 运动 可 以 产生 光 流 ; 通过 运动 恢复 物体 的 结构 ,识别 静止 的 
三 维 物体 ; 观察 者 注意 物体 的 运动 状态 ， 可 以 识别 事件 及 所 涉及 的 物体 属性 。 那 么 


= 


静态 视觉 信息 在 知觉 活动 中 的 作用 是 否 可 以 迁移 到 视觉 搜索 任务 中 呢 ? 答案 是 肯 
定 的 。 前 文 已 论述 过 ， 真 实 环境 里 的 搜索 和 基于 照片 的 搜索 最 大 的 区 别 就 是 运动 。 在 
真实 环境 里 ， 观 察 者 和 观察 对 象 之 间 的 相对 运动 会 改变 静态 影像 信息 及 影像 的 显著 
性 ， 所 以 有 效 的 搜索 机 制 必须 可 以 适应 或 抵抗 由 运动 引起 的 搜索 对 象 外 形 的 变化 
( Seidl-Rathkopf Turk-Browne, & Kastner, 2015 ) o Am ,独立 于 影像 的 、 可 以 抵抗 视 


角 变 化 的 动态 视觉 信息 ( 如 轨迹 形态 ) 很 有 可 能 就 是 人 们 在 真实 搜索 中 需要 的 信息 。 
2.4 动 、 静 态 视 觉 信息 在 视觉 搜索 任务 中 的 作用 


只 包含 运动 信息 的 生物 运动 范式 已 经 被 应 用 于 注意 研究 领域 Ding, Yin, Shui, 
Zhou, & Shen, 2017; Myer, Vuong, & Thornton, 2015 ) , 但 使 用 生物 运动 范式 研究 视觉 
搜索 的 并 不 多 。 这 些 研究 发 现 ， 观 察 者 仅 通过 光 点 显示 就 可 以 从 随机 运动 的 光 点 中 找 
出 光 点 行走 者 (Hirai & Hiraki, 2006) , 从 正 立 的 行走 者 里 找 出 倒立 的 行走 者 ( Wang, 
Zhang He, & Jiang, 2010 ) ， 找 出 行走 方向 不 同 的 人 ( Cavanagh, Labianca, & Thornton, 
2001 ) ， 和 区 分 不 同 运动 ( Van Boxtel & Lu, 2011 ) o 

真实 环境 中 的 视觉 搜索 通常 同时 存在 动 、 静 态 两 种 视觉 信息 。 然 而 ， 早 期 在 引导 
搜索 模型 框架 下 的 实验 任务 多 采用 二 维 静态 图 形 或 符号 作为 搜索 对 象 ， 观 察 者 多 数 不 
能 随意 移动 身体 进行 搜索 。 然 而 在 真实 环境 里 的 视觉 搜索 ， 对 象 可 以 是 静止 或 移动 的 
三 维 物 体 ， 观 察 者 也 可 以 是 静止 或 者 运动 的 。 例 如 在 上 述 Foulsham 等 人 ( 2014 ) 的 
研究 中 ， 虽 然 被 试 走 进 收发 室 , 寻找 目标 邮箱 ， 但 是 实验 中 也 仅仅 通过 改变 目标 邮箱 


的 显著 性 ( 加 粉色 边框 ) 来 操纵 自 下 而 上 的 信息 ， 却 没有 考虑 移动 过 程 中 动态 信息 和 
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静态 信息 的 交互 作用 。 近 年 来 ， 一 些 研究 者 采用 不 同方 法 探究 被 试 走动 对 搜索 的 影响 
( Smith, Hood, & Gilchrist, 2008, 2010 ) 。 例 如 ,Ruddle 和 Lessels ( 2006 ) 借助 仿真 技 
术 设 计 了 一 个 被 试 在 虚拟 现实 场景 中 搜索 目标 物 的 任务 ， 被 试 需要 到 16 个 不 同位 置 
寻找 8 个 目标 物 。 第 一 组 被 试 只 能 坐 在 屏幕 前 ( 身体 被 固定 ) 通过 移动 鼠标 来 模拟 场 
景 中 的 转向 和 前 进 运 动 ; 第 二 组 被 试 允 许 在 固定 位 置 上 转动 身体 ,并 借助 立体 显示 头 
Æ ( Stereo HMD ) 实现 在 场景 中 的 转向 ， 但 仍 需 移动 鼠标 才能 前 进 到 不 同位 置 ; 不 同 
于 前 两 组 , 第 三 组 被 试 可 以 在 真实 环境 中 走 到 任意 位 置 进行 搜索 。 实 验 结果 表明 ， 身 
体 被 固定 的 被 试 在 搜索 效率 上 均 差 于 其 他 两 组 被 试 ， 而 允许 随意 走动 的 被 试 ， 其 搜索 
效率 最 高 。 也 就 是 说 ， 身 体 运动 所 产生 的 动态 信息 与 搜索 对 象 的 静态 信息 相 结合 时 可 
能 有 利于 提高 视觉 搜索 效率 。 

前 人 提出 的 “县 身 记 忆 模 型 ” ( Pan, Bingham, & Bingham, 2013 ) 认为 ， 当 动 、 静 态 
视觉 信息 同时 标示 一 个 事件 时 ， 光 流 上 有 具有 空间 方面 的 准确 性 ， 可 以 校准 影像 结构 ， 帮 
助 观 察 者 准确 识别 物体 和 环境 的 三 维 关系 ; 影像 结构 具有 时 间 方 面 的 稳定 性 ， 可 以 在 
运动 停止 、 光 流 消 失 后 形成 具 身 记忆 ， 使 观察 者 持续 知觉 三 维 结构 。 我 们 发 现 影像 信 
息 和 光 流 信息 的 结合 可 以 使 观察 者 准确 找 出 被 隐藏 或 被 伪装 的 目标 物 。 在 Pan 等 人 
(2013 , 2017) 的 研究 中 ， 多 个 目标 物 逐 渐 被 干扰 物 遮 挡 ， 被 试 可 以 利用 两 种 视觉 信 
息 , 在 遮挡 的 过 程 中 和 被 完全 遮挡 后 ， 准确 找 出 目标 物 。 在 Pan, Bingham, Chen 和 


Bingham ( 2017) 的 研究 中 ， 当 目标 物 和 干扰 物 外 形 完全 一 样 ， 但 空间 位 置 不 同时 ， 


Tiili 


被 试 可 以 利用 两 种 视觉 信息 准确 稳定 地 找 出 目标 物 。 按 照 Nakayama 和 Martini 


是 通过 多 种 特征 认 出 一 个 目标 物 ， 搜索 是 


= 


(2011 ) 的 对 识别 和 搜索 任务 的 界定 ( 识 另 
通过 少数 特征 找 出 多 个 目标 物 ) ， 上述 两 个 任务 实际 上 更 偏向 于 视觉 搜索 。 
综 上 ， 现 有 研究 已 经 表明 ,观察 者 可 以 利用 动态 视觉 信息 搜索 事件 ( 生物 运动 及 


非 生物 运动 ) ， 可 以 利用 静态 视觉 信息 搜索 物体 。 于 是 ， 我 们 在 现 有 引导 搜索 模型 的 
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基础 上 ,加 入 视觉 信息 变量 ， 提 出 光 流 和 影像 结构 是 影响 搜索 的 自 下 而 上 的 重要 因 
素 。 观 察 者 利用 搜索 对 象 之 间 影 像 的 差异 区 分 不 同 个 体 ， 差 异 越 大 的 物体 越 显 著 ， 容 
易 被 搜索 ; 观察 者 可 以 利用 光 流 信息 知觉 搜索 对 象 的 运动 特征 及 背后 的 力学 属性 ， 从 
区 分 不 同 的 搜索 对 象 ( 图 2 ) 。 当 然 ， 观 察 者 自身 的 运动 除了 可 以 在 视觉 层面 生成 
光 流 信息 ,也 会 产生 运动 觉 、 本 体 觉 等 信息 。 观 察 者 在 运动 中 进行 视觉 搜索 时 ， 运动 
提供 了 更 多 的 自 下 而 上 的 视觉 信息 ， 帮助 视觉 搜索 ; 但 不 能 排除 运动 相关 信息 对 高 级 
认 知 过 程 的 影响 ， 如 工作 记忆 、 注 意 等 ， 且 这 种 影响 可 能 是 抑制 性 的 ( Mayer Riddell 


& Lappe , 2019 )。 


真实 环境 里 的 视觉 搜索 
p 


认 知 引导 


运动 学 特征 
力学 性 质 


自 下 而 上 外 源 性 机 制 自 上 而 下 内 源 性 机 制 


图 2 : 本 项 目 提 出 的 理论 模型 。 我 们 认为 视觉 信息 对 真实 环境 里 的 视觉 搜索 起 到 
自 下 而 上 的 影响 ,尤其 是 光 流 以 及 光 流 和 影像 结构 的 交互 。 本 研究 补充 了 光 流 信息 在 
视觉 搜索 中 的 自 下 而 上 的 作用 ,但 是 运动 产生 的 视觉 、 运 动 觉 及 本 体 觉 信息 可 能 以 其 
它 方式 对 视觉 搜索 造成 自 上 而 下 的 影响 ， 有 待 后 续 研究 。 图 中 黑色 字 为 现 有 理论 模 


型 ,主要 基于 Wolfe 的 引导 搜索 模型 。 红 色 字 为 本 文 提出 理论 构想 的 关键 词 。 


3 研究 构想 
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3.1 科学 问题 

本 研究 拟 解 决 的 第 一 个 科学 问题 是 : 影响 真实 环境 中 搜索 三 维 物体 和 事件 的 自 下 
而 上 的 因素 是 什么 。 现 有 理论 将 影响 真实 环境 中 搜索 行为 的 因素 分 为 自 下 而 上 和 自 上 
而 下 两 类 ,其 中 自 下 而 上 的 原因 被 归结 为 搜索 对 象 影像 的 显著 性 。 我 们 认为 这 是 不 充 

分 的 。 我 们 提出 对 搜索 产生 自 下 而 上 影响 的 是 视觉 信息 ,包括 静态 影像 结构 和 动态 光 
流 信息 ， 且 两 种 信息 之 间 存 在 交互 作用 。 我 们 通过 研究 一 和 研究 二 分 别 研究 影像 结构 
信息 和 光 流 信息 在 搜索 静止 的 三 维 物体 和 运动 的 事件 时 的 作用 ， 从 而 回答 动 、 静 态 视 
觉 信 息 如 何 被 整合 利用 以 完成 真实 环境 中 的 视觉 搜索 这 一 科学 问题 。 

本 研究 拟 解 决 的 第 二 个 科学 问题 是 : 传统 的 视觉 搜索 理论 能 否 泛 化 并 预测 真实 环 
境 中 的 视觉 搜索 行为 。 传 统 的 视觉 搜索 研究 多 使 用 二 维 图 像 作为 搜索 对 象 ， 经 过 几 十 
年 的 探索 得 出 许多 理论 ， 这些 理论 可 以 解释 基于 二 维 图 像 的 搜索 行为 ， 如 放射 科 医生 
从 X 光 片 中 识别 异常 组 织 。 但 是 真实 环境 中 的 搜索 任务 更 加 复杂 : 搜索 目标 、 干 扰 子 
是 三 维 的 ， 观 察 者 和 观察 对 象 是 可 以 运动 的 ， 搜 索 视 角 会 变化 ， 背 景 环境 繁杂 等 等 。 
所 以 在 平面 图 像 上 的 视觉 搜索 和 真实 环境 中 的 视觉 搜索 是 否 存 在 相似 的 行为 规律 ? 我 
们 通过 让 接 比 较 两 种 搜索 表现 ( 研究 一 ) 和 比较 搜索 训练 的 效果 ( 如 果 通 过 训练 平面 
上 的 搜索 可 以 提高 真实 环境 中 的 搜索 表现 ， 则 两 种 搜索 本 质 上 相通 ; 研究 三 ) 两 种 方 


法 回答 这 个 问题 。 


3.2 研究 方案 


在 本 项 目 中 ， 我们 通过 三 个 子 研究 ( 技术 路 线 总 图 见 图 3 ) 来 探究 利用 动 、 静 态 
视觉 信息 的 视觉 搜索 过 程 和 机 制 ， 以 及 提高 视觉 搜索 效率 的 干预 方式 。 研 究 中 主要 使 
用 心理 物理 法 、 贝 叶 斯 估计 等 方法 分 析 刺 激 中 的 信息 量 、 搜 索 效率 及 二 者 之 间 的 关 


系 。 通 过 三 个 子 研究 ， 系 统 梳理 影像 结构 和 光 流 信息 在 搜索 中 的 作用 ,验证 视觉 信息 
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技术 路 线 总 图 
动 、 人 


I 
i 视觉 信息 


视觉 搜索 训练 Rea 
< 物体 识别 线索 ; 
Bat 


探索 事件 = 
wnt Se (物体 + 运动 ) 


研究 思路 : 控制 视觉 信息 ， 比 较 搜索 效率 ; 针对 不 同 信息 的 训练 能 否 提高 真实 搜索 的 表现 
实验 手段 : 心理 物理 法 、 光 流量 化 算法 、 贝 叶 斯 模型 、 眼 动 、 虚 拟 现实 、 裸 眼 3D 


对 搜索 产生 的 自 下 而 上 的 影响 ， 完 善 基于 视觉 信息 和 注意 引导 的 搜索 模型 。 再 将 理论 
应 用 到 对 人 的 视觉 搜索 训练 ， 和 对 智能 搜索 的 设计 中 去 ， 从 而 帮助 人 和 机 器 更 好 地 完 
成 搜索 任务 。 

图 3 : 本 项 目的 技术 路 线 总 图 。 其 中 分 三 个 研究 ， 分 别 对 应 静态 三 维 物 体 搜索 ， 事 件 搜 


索 ， 以 及 视觉 搜索 训练 。 图 中 绿色 字 为 所 使 用 的 视觉 信息 , 蓝 色 字 为 搜索 任务 ， 黄色 
字 为 研究 序号 。 


3.2.1 研究 一 : 利用 动 、 静 态 视觉 信息 对 静止 目标 物体 的 搜索 

研究 一 将 通过 三 个 实验 来 探索 当 搜索 目标 静止 时 ， 静止 或 运动 的 观察 者 如 何 进行 
视觉 搜索 ,找到 目标 物体 。 分 别 对 应 三 个 问题 : 1 ) 运动 恢复 结构 能 否 帮助 搜索 三 维 物 
体 ; 2 ) 视觉 搜索 效率 是 否 受 视角 转变 ( perspective change ) 的 影响 ; 3 ) 观察 者 运动 


时 ， 视角 发 生 连续 变化 ， 导致 视网膜 上 的 像 连 续 变 化 ， 两 种 视觉 信息 能 否 解 决 这 种 变 
化 对 搜索 的 影响 。 
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在 实验 1.1 中 ,我 们 在 电脑 屏幕 上 分 别 以 正 投影 ( 观察 角度 为 0 ) 和 透视 投影 

( 45° 俯 视角 ) 的 方式 呈现 刺激 ， 比较 搜索 表现 以 得 出 视角 转变 是 否 对 视觉 搜索 产生 影 
响 。 实 验 1.2 中 ， 我们 将 真实 物体 排列 在 桌面 上 ， 被 试 坐 在 桌 边 ， 以 45" 俯 视角 观察 搜 
RFI ,在 搜索 对 象 不 动 、 搜 索 对 象 被 动 旋转 、 及 被 试 主动 旋转 搜索 对 象 的 情况 下 , 
找 出 目标 物体 。 对 比 实验 1.2 和 实验 1.1 ,我们 可 以 得 知 真 实 环境 中 的 搜索 和 电脑 上 模 
拟 的 真实 场景 中 的 搜索 是 否 相同 ,视角 变化 及 运动 恢复 结构 能 否 促 进 搜索 。 实 验 1.3 
中 ,我 们 在 虚拟 现实 环境 中 搭建 更 逼真 更 复杂 的 搜索 场景 ， 允 许 观 察 者 自由 移动 观 
察 。 使 用 与 实验 1.1、1.2 相似 的 条 件 ， 上 比较 三 个 实验 的 结果 ， 以 验证 实验 室 研究 的 效 


EB, 探索 影 像 结构 和 光 流 信息 结合 对 真实 环境 中 物体 搜索 的 影响 。 
3.2.2 研究 二 : 利用 动 、 静 态 视觉 信息 对 运动 事件 的 搜索 


研究 二 的 主要 问题 是 : 当 搜 索 对 象 是 运动 中 的 人 时 ( 运动 的 人 是 事件 ) ， 观察 
者 如 何 利 用 视觉 信息 找到 某 一 个 人 。 许 多 利用 生物 运动 范式 的 研究 指出 ， 人 类 观察 者 
对 人 的 运动 十 分 敏感 ， 可 以 仅 通过 运动 信息 ( 而 不 需要 影像 信息 ) 识别 人 的 动作 ,对 
动作 进行 分 类 ， 或 分 辨 运动 者 的 性 别 、 体 型 、 情 绪 等 。 那 么 ， 我 们 可 以 仅 通过 运动 信 
息 从 一 群 运动 的 人 中 找 出 某 一 个 运动 的 个 体 吗 ? 此 外 ， 在 传统 的 生物 运动 范式 中 ， 
个 运动 的 人 被 简化 成 一 组 协 动 的 光 点 ， 并 从 矢 状 面 sagittal view ) 以 正 投影 方式 呈 
现 ， 且 多 数 情况 下 ， 光 点 组 之 间 是 独立 的 、 没 有 重 又 或 穿插 ( 如 一 个 或 几 个 独立 的 光 
点 运动 者 在 电脑 屏幕 上 向 左 或 向 右 走 ) 。 但 是 在 真实 环境 中 ， 多 人 运动 不 只 停留 在 额 
平行 平面 ( frontoparallel plane ) 上 ， 也 有 纵深 运动 ， 且 会 有 很 多 重 又 遮掩。 而 观察 者 
的 视线 和 搜索 对 象 所 在 平面 也 可 能 不 垂直 ， 如 站 在 高 处 看 或 者 监控 拍 到 的 视频 通常 存 
在 俯视 角 。 所 以 ， 当 存在 纵深 维度 运动 和 运动 者 相互 遮挡 时 ， 以 及 当 观 察 者 和 搜索 对 
象 之 间 存 在 视角 变化 时 ， 观察 者 能 否 依赖 运动 信息 搜索 到 某 一 个 运动 的 目标 ? 第 三 ， 
在 真实 环境 中 ， 搜索 对 象 不 仅 有 运动 信息 还 有 影像 信息 。 前 人 研究 发 现 ， 生 物 运 动 的 
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呈现 方式 ( 光 点 、 连 线 、 轮 廓 线 或 剪影 ) 对 动作 识别 效率 有 很 大 影响 ， 加 入 一 些 影像 
信息 ( 如 将 光 点 之 间 连 线 再 呈现 ) 会 使 识别 效率 更 高 ( Lu, Tjan & Liu, 2017). E 
时 ,影像 结构 还 能 影响 目标 物 和 干扰 子 之 间 、 干 扰 子 和 干扰 子 之 间 的 相似 程度 以 及 搜 
索 对 象 的 显著 性 ， 从 而 改变 搜索 任务 难度 。 综 合 这 两 方面 的 原因 ， 在 搜索 任务 中 ， 加 
入 影像 信息 对 运动 目标 的 搜索 会 产生 怎样 的 影响 呢 ? 最 后 ， 在 真实 环境 中 ， 人 往往 存在 
不 止 一 种 运动 ， 如 在 街 上 有 人 行走 ,也 有 汽车 行驶 。 根 据 “ 力 约束 运动 理论， 人 行走 
和 汽车 行驶 的 运动 本 质 上 是 不 同 的 ， 具 有 完全 不 同 的 力学 属性 ， 可 以 很 容易 从 运动 信 
息 中 区 分 两 种 运动 。 在 信息 层面 ,加 入 另 一 种 完全 不 同 的 运动 不 会 影响 搜索 。 但 是 运 
动 是 一 种 显著 的 线索 ， 运动 的 干扰 子 可 以 瞬间 抓 住 观察 者 注意 力 ， 影 响 搜索 效率 。 所 
以 ， 目 标 显著 性 和 运动 学 特征 两 种 自 下 而 上 的 影响 对 事件 搜索 产生 怎样 的 交互 影响 
Ne ? 

我 们 将 通过 四 个 实验 回答 上 述 问题 。 实 验 2.1 结合 视觉 搜索 和 生物 运动 的 实验 
范式 ， 将 运动 的 光 点 组 相互 独立 地 从 矢 状 面 方向 以 正 投影 方式 呈现 在 屏幕 上 ， 要 求 被 
试 从 几 组 运动 的 光 点 中 找 出 目标 运动 者 。 实 验 2.2 中 ， 搜 索 对 象 在 空间 中 穿插 走动 
时 ， 光 点 间 会 出 现 重 各、 穿插 及 非 刚性 运动 ( non-rigid motion ) 。 实 验 材料 会 从 0" 和 
45" 两 个 俯视 角 制 作 ， 模 拟 沉浸 在 人 群 中 的 观察 者 的 搜索 视角 和 监控 录像 中 的 搜索 视角 
两 种 情况 。 被 试 通过 光 点 组 的 运动 找 出 目标 事件 。 在 实验 2.3 中 ， 我 们 用 虚拟 现实 措 
建 一 个 在 繁忙 场所 找 人 的 情景 ， 赋予 搜索 对 象 影像 结构 信息 ,操控 影像 显著 性 ( 如 改 
变 被 搜索 人 群 衣服 的 颜色 或 统一 性 ) ， 上 比较 观察 者 静止 观察 时 和 运动 观察 时 的 事件 搜 
索 表 现 。 在 实验 2.3 的 基础 上 ， 实验 2.4 中 包含 静态 和 动态 干扰 子 ， 研 究 干 扰 子 的 影 
像 显 著 性 和 干扰 子 的 运动 特性 对 真实 环境 下 事件 搜索 的 交互 影响 。 我 们 加 入 运动 的 干 
扰 子 ( 如 在 街 上 找 某 个 行人 的 搜索 任务 中 加 入 行驶 的 车 辆 ) ， 以 探究 无 关 运 动 信息 对 


搜索 的 影响 ; 然后 改变 静态 干扰 子 的 显著 度 ( 如 加 入 闪烁 的 路 边 招牌 ) ， 以 探究 影 
结构 信息 显著 性 对 搜索 的 影响 。 


3.2.3 研究 三 : 运用 仿真 手段 对 视觉 搜索 的 训练 


研究 一 、 二 从 理论 层面 探究 动 、 静 态 视 觉 信 息 如 何 被 整合 利用 从 而 完成 在 真实 环 
境 中 搜索 静止 的 物体 或 动态 的 事件 ， 并 梳理 总 结 各 种 因素 对 搜索 效率 的 影响 。 在 此 理 
论 基 础 之 上 ， 研究 三 则 在 找 出 能 够 有 效 提高 视觉 搜索 效率 的 训练 方法 。 搜 索 训 练 的 目 
标 是 提高 在 复杂 搜索 任务 中 的 正确 率 和 搜索 效率 ,搜索 任务 包括 静止 或 运动 的 观察 者 
搜索 目标 物体 或 事件 。 训 练 分 为 四 个 阶段 : 前 测 一 训练 一 后 测 一 保持 。 前 测 指 未 经 训 
练 的 观察 者 在 完成 任务 时 的 基线 水 平 。 后 测 指 经 过 训练 后 ， 达 到 的 水 平 。 保 持 指 在 训 
练 后 的 一 段 时 间 里 ， 较 高 的 搜索 效率 能 否 持续 。 训 练 是 最 重要 的 一 个 阶段 ， 设 计 训 练 
方案 的 一 个 重要 理念 是 如 何 通过 练习 简单 任务 提高 在 复杂 任务 中 的 表现 。 训 练 需 根 据 
理论 研究 得 出 的 影响 搜索 的 因素 ， 通 过 简单 的 、 可 操控 的 、 有 针对 性 的 训练 任务 ， 来 
提高 复杂 搜索 任务 的 表现 。 同 时 ， 训练 效 果 也 可 以 进一步 证 明理 论 研究 中 得 到 的 因素 


是 否 确实 对 搜索 有 影响 。 


研究 三 通过 三 个 实验 找 出 最 有 效 的 训练 方法 。 每 个 实验 的 前 侧 、 后 测 、 保 持 阶 
段 的 任务 为 : 静止 或 运动 的 观察 者 搜索 静止 的 目标 和 静止 的 观察 者 搜索 运动 的 目标 
( 分 别 对 应 研究 一 、 二 ) ， 而 训练 阶段 依照 训练 内 容 的 复杂 程度 分 为 三 个 实验 。 实 验 
3.1 : 训练 阶段 使 用 虚拟 现实 搭建 的 、 跟 其 它 三 阶段 一 样 的 仿真 环境 。 实 验 3.2 : 训练 
阶段 使 用 抽象 的 三 维 搜索 对 象 ， 但 仍然 有 光 流 和 影像 结构 信息 ， 如 研究 一 、 二 中 使 用 
的 搜索 乐高 积木 或 搜索 光 点 行走 者 任务 。 实 验 3.3 : 训练 阶段 使 用 传统 的 平面 视觉 搜 


索 范 式 ( 如 在 彩色 形状 中 找 红色 圆圈 之 类 ) ， 视 觉 信息 不 同 ， 但 是 搜索 同样 需要 注意 
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分 配 和 控制 。 通 过 实验 3.1, 我 们 可 以 知道 能 否 通过 训练 提高 真实 环境 中 的 视觉 搜 
索 。 通 过 实验 3.2， 我 们 可 以 知道 针对 视觉 信息 的 训练 ， 能 否 提高 视觉 搜索 表现 。 通 
过 实验 3.3, 我 们 可 以 知道 针对 搜索 过 程 中 注意 的 训练 ， 能 否 提高 搜索 表现 。 从 实验 
3.1 到 实验 3.3, 知觉 信息 逐步 减少 但 是 搜索 任务 原理 上 一 致 ， 所 以 综合 比较 三 种 训练 
的 效果 ， 我 们 可 以 间接 知悉 影响 搜索 的 视觉 信息 因素 和 注意 因素 之 间 的 关系 ， 从 而 间 


接 验证 我 们 提出 的 基于 视觉 信息 和 注意 机 制 的 搜索 理论 。 


4 理论 建构 


成 功 的 视觉 搜索 是 人 类 生存 繁衍 的 必要 技能 。 大 量 视觉 搜索 研究 基于 引导 搜索 模 
型 开展 。 该 模型 认为 : 在 搜索 过 程 中 ， 对 注意 的 引导 可 分 为 自 上 而 下 和 自 下 而 上 两 个 
部 分 。 自 上 而 下 的 影响 因素 包括 模板 引导 、 情 景 引导 和 语义 引导 三 个 部 分 。 对 于 这 三 
个 部 分 的 研究 已 经 比较 完善 并 形成 一 些 统一 的 认识 。 自 下 而 上 部 分 则 简单 归 为 “影像 显 
EE. Am, 近年 来 有 研究 发 现 ， 影 像 显著 性 对 注意 分 配 的 影响 局 限于 实验 室 任 务 ， 
不 能 泛 化 到 真实 环境 中 的 视觉 搜索 ( Henderson & Hayes, 2017 ; Wu, Wick & 
Pomplun, 2014 ) 。 影 响 视觉 搜索 的 自 下 而 上 因素 是 什么 则 成 了 关键 问题 。 另 外 ， 传 
统 视 觉 搜索 研究 多 数 针对 静止 观察 者 和 静止 的 搜索 对 象 ， 且 搜索 对 象 以 平面 形式 呈 
现 。 然 而 这 只 是 视觉 搜索 的 一 种 情况 。 真 实 环 境 中 的 视觉 搜索 ,搜索 对 象 可 以 是 静止 
或 移动 的 三 维 物体 ， 观察 者 也 可 以 是 静止 或 者 运动 的 。 传 统 的 实验 室 研 究 结果 能 否 泛 


化 并 预测 真实 环境 中 的 视觉 搜索 也 有 待 解答 。 


为 了 解决 上 述 两 个 问题 ， 本 团队 特地 设计 了 两 个 研究 进行 回答 。 我 们 将 结合 生态 
觉 理论 ( Gibson, 1966, 1979) ， 引 入 动 、 静 态 视觉 信息 来 完善 自 下 而 上 的 影响 因 


素 并 提出 理论 模型 ( 见 图 2 ) 。 同 时 ， 和 希望 在 视觉 搜索 研究 领域 取得 以 下 进展 : 
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首先 ， 研 究 一 包括 静止 观察 者 搜索 静止 三 维 物 体 ( 可 利用 信息 为 影像 结构 ) ， 和 
运动 观察 者 搜索 静止 三 维 物体 ( 可 利用 信息 为 影像 结构 和 全 局 光 流 ) 两 种 情况 。 根 据 
研究 一 的 行为 数据 ， 我 们 将 探索 真实 环境 下 动 、 静 态 视 觉 信息 对 搜索 三 维 物体 的 影 
响 ， 了 解 搜索 三 维 物体 的 行为 规律 。 再 根据 Pan, Bingham 和 Bingham ( 2013 , 2017 ) 
的 “ 具 身 记忆 模型 "理论 ， 比 较 基 于 平面 结构 的 搜索 和 真实 环境 下 三 维 物体 的 搜索 的 异 
E, 以 验证 传统 平面 搜索 研究 得 出 的 理论 是 否 适用 于 搜索 三 维 物体 。 该 研究 的 结果 一 
方面 可 以 说 明光 流 对 视觉 搜索 所 起 的 作用 ， 弥 补 之 前 理论 模型 中 的 缺失 。 另 一 方面 也 
能 说 明 ， 影 像 结 构 可 以 保存 光 流 标示 的 物体 或 事件 ， 使 搜索 具备 持久 性 。 


其 次 ， 研 究 二 将 设计 两 个 任务 : 静止 观察 者 搜索 运动 三 维 物体 ， 即 事件 ( 可 利用 


一 全 、 


言 息 为 影像 结构 和 局 部 光 流 ) ; 运动 观察 者 搜索 事件 ( 可 利用 信息 为 影像 结构 和 全 局 
及 局 部 光 流 ) ， 结 合生 物 运动 范式 ， 验 证 真实 环境 下 动 、 静 态 视 觉 信息 在 事件 搜索 中 
的 作用 。 我 们 验证 光 流 对 运动 特征 及 其 背后 的 力学 性 质 的 标示 能 否 是 观察 者 区 分 事 
件 ， 并 通过 与 影像 信息 的 结合 ， 实 现 准确 、 持 久 的 视觉 搜索 ; 此 外 ， 在 加 入 不 同 扰动 
( 如 ,视角 变化 ， BBS ) 之 后 ， 可 以 探究 光 流 信息 对 事件 标示 的 抗 变换 性 。 最 后 ， 
我 们 将 在 虚拟 仿真 环境 下 提供 静态 影像 结构 和 光 流 信息 ， 以 获知 在 复杂 场景 中 的 搜索 
过 程 和 规律 。 

最 后 ， 在 前 两 个 研究 的 基础 上 ， 我们 将 在 研究 三 中 找 出 能 够 有 效 提高 视觉 搜索 效 


率 的 训练 方法 。 其 中 ， 第 一 个 实验 验证 在 虚拟 现实 场景 中 重复 练习 视觉 搜索 能 否 提 证 


J 


搜索 效率 ; 第 二 个 实验 强调 对 影像 结构 和 光 流 信息 的 提取 及 整合 能 力 的 训练 ， 通 过 练 
习 搜索 运动 的 三 维 搜索 对 象 ， 检 验 训练 能 否 提高 在 虚拟 仿真 场景 中 复杂 搜索 任务 的 表 
现 。 第 三 个 实验 则 采用 的 传统 视觉 搜索 范式 ， 通 过 练习 对 平面 图 形 或 符号 的 搜索 , 检 


给 训练 能 否 提高 在 虚拟 仿真 场景 中 复杂 搜索 任务 的 表现 。 如 果实 验 二 和 实验 三 的 训练 
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效果 存在 差异 ， 则 间接 说 明 传统 的 视觉 搜索 范式 不 能 完全 代表 三 维 环境 中 的 视觉 搜索 
行为 。 

综 上 所 述 ， 本 研究 将 使 用 多 种 研究 技术 和 手段 , 系统 梳理 影像 结构 和 光 流 信息 在 
搜索 中 的 作用 ， 探究 动 、 静 态 视觉 信息 对 搜索 产生 的 自 下 而 上 的 影响 ， 完 善 基于 视觉 
慎 息 和 注意 指引 的 搜索 模型 。 在 本 研究 基础 上 ， 后续 研究 可 深入 发 掘 观察 者 自身 运动 
产生 的 视觉 、 本 体 觉 、 运 动 觉 等 信息 对 搜索 任务 造成 的 自 上 而 下 的 影响 ， 进 而 完善 


类 


有 高 生态 效 度 的 视觉 搜索 理论 体系 。 例 如 ， 寻 砚 ( foraging) 任务 被 认为 是 近似 于 视 
觉 搜索 的 一 种 自然 任务 。 在 寻 砚 任务 中 ,观察 者 可 以 移动 身体 反复 查看 并 找 出 目标 ， 
(Ehinger & Wolfe, 2016 ; Wolfe, Cain, Ehinger, & Drew, 2015) ,此 时 运动 相关 信息 与 
高 级 认 知 功能 ( 注意 、 记 忆 等 ) 交互 就 显得 格外 重要 了 。 另 一 方面 , 生态 知觉 理论 角 
并 没有 区 分 生物 运动 和 非 生 物 运动 ， 它们 都 是 事件 ,都 可 以 通过 捕捉 动态 轨迹 形态 信 
息 识别 。 但 是 我 们 目前 规划 的 视觉 搜索 实验 仅 使 用 了 生物 运动 作为 搜索 对 象 。 后 续 研 
究 可 将 搜索 对 象 扩展 到 其 他 类 型 的 事件 ， 从 而 验证 通过 动态 视觉 信息 搜索 事件 这 


论 y Hm. 
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Visual Search in Real World: The role of dynamic and static optical 
information 
PAN Jing; ZHANG Huiyuan; CHEN Donghao; XU Hongge 


( Department of Psychology, Sun Yat-sen University, GuangZhou, 51006, China ) 


Visual search is a ubiquitous task and a critical skill for men and animals. Existing studies on 
visual search mainly focus on attentional guidance and the top-down cognitive influences on 
search effectiveness. The bottom-up influence on visual search is, rather crudely, simplified 
as objects’ image saliency. However, when searching in real world, where the observer 
and/or objects move, both static image information (the saliency of which has been 
considered in existing search models) and dynamic optic flow information are available. 
Optic flow is generated by the relative motions between an observer and world objects. So by 
detecting flow patterns, observers get to know the kinematic properties of events (which is 
defined as objects in motion) and hence perceive the physical properties of constituent 
objects, such as the mass, size and frictional coefficient etc.. These physical properties 
distinguish objects and allow the observer to search for a particular one. We integrate 
dynamical perceptual information (i.e. optic flow) into existing search models and in two 
studies, we test how combined dynamical and static perceptional information affect visual 
search for three-dimensional objects and for moving people, when the observer is stationary 
or moving. Furthermore, we attempt to develop a training protocol that improves search 
effectiveness in real world. Findings from this project will bring forth new theories for 
understanding visual search in real world, and have direct applications on personnel training 


and intelligent search designs. 
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